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基于 深度 卷 积 自 编码 神经 网 络 的 手写 数字 识别 研究 ， 
曾 文献 ， 孟 庆 林 ， 郭 兆 十 


(河北 经 贸 大 学 信息 技术 学 院 , 石家庄 050061) 


摘 要 : 手写 数字 识别 在 各 种 应 用 环境 中 对 准确 率 的 要 求 极 高 ， 传 统 机 器 学 习 方 法 由 于 训练 样本 单一 ， 易 在 实际 应 
用 中 识别 错误 。 针 对 在 提高 不 同 笔 体 下 的 手写 识别 准确 率 进 行 了 研究 ， 将 深度 卷 积 神经 网 络 与 自动 编码 器 相 结合 ， 
设计 卷 积 自 编 码 器 网 络 层 数 ， 形 成 深度 卷 积 自 编码 神经 网 络 。 首 先 采 用 双 线 性 播 值 方法 分 别 对 MNIST 数据 集 与 一 
万 幅 自 制 中 国 大 学 生 手写 数字 图 片 进行 图 像 预 处 理 ， 然 后 先 使 用 单一 MNIST 数据 集 对 深度 卷 积 自 编码 神经 网 络 进 
行 训练 与 测试 ， 最 后 使 用 MNIST 与 自制 数据 集中 5000 幅 混合 ， 再 次 训练 该 网 络 ， 对 另外 5000 幅 进行 测试 。 实 验 
数据 表明 , 所 提 深 度 卷 积 自 编码 神经 网 络 在 MNIST 测试 集 正 确 率 达 到 99.37%， 相 比 于 前 人 有 效 提高 准确 率 ; 且 5000 
幅 自制 数据 集 模型 测试 正确 率 达 99.33%， 表 明 该 算法 实用 性 较 强 ， 在 不 同 笔 体 数字 上 得 到 较 高 识别 准确 率 ， 模 型 准 
确 有 效 。 
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Research on handwritten digit recognition based on deep convolution self-coded neural network 


Zeng Wenxian, Meng Qinglin, Guo Zhaokun 
(School of Information Technology, Hebei University of Economics & Business, Shijiazhuang 050061, China) 


Abstract: Handwritten digit recognition requires extremely high accuracy in various application environments. Traditional 
machine learning methods are easy to identify errors in migration applications due to the single training sample. The article 
studied the accuracy of handwriting recognition under different fonts, combined a deep convolutional neural network with 
an automatic encoder to design a convolutional self-encoder network layer to form a deep convolutional self-encoding 
neural network. Firstly, this paper used the bilinear interpolation method to preprocess the MNIST dataset and 10, 000 
self-made Chinese college students' handwritten digital images. Then, this paper used a single MNIST dataset to train and 
test the deep conlutional self-encoding neural network. Finally, this paper mixed MNIST with 5, 000 self-made data sets, 
trained the network again, and tested another $5, 000. The experimental data showed that the correct rate of the deep 
convolutional self-encoding neural network in the MNIST test set reached 99.37%, which was more effective than the 
predecessors. And the correct rate of 5, 000 self-made dataset model tests was 99.33%. The result indicates that the 
algorithm has strong migration and application ability, and it has higher recognition accuracy on different pen Figures. The 
model is accurate and effective. 
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别 错误 。 此 外 ， 卷 积 神经 网 络 池 化 层 会 丢失 较 多 的 信息 ， 从 


0 引证 而 降低 了 空间 分 辩 率 ， 这 就 导致 对 于 输入 的 微小 变化 ， 其 输 
手写 数字 识别 在 计算 机 视觉 领域 占有 非常 重要 的 地 位 。 “出 几乎 是 不 变 的 ， 容 易 降低 模型 准确 性 。 因 此 找到 合适 的 算 
它 利用 现 有 计算 机 技术 及 摄像 头等 设备 ， 对 日 常生 活 中 手写 ”法 以 及 特征 履 盖 范围 较 大 的 手写 数字 训练 数据 成 为 识别 的 关 
阿拉 伯 数 字 进 行 辨识 ， 在 财务 处 理 、 金 融 管理 、 税 务 管理 等 。 键 。 
等 领域 应 用 广泛 。 然 而 由 于 人 工 手写 数字 笔 体 不 一 ， 使 得 计 自动 编码 器 由 编码 器 和 解码 器 两 部 分 组 成 ， 能 够 尽 可 能 
7 机 进行 智能 识别 时 准确 率 较 低 。 例 如 在 日 常生 活 中 进行 银 。 复 现 输入 特征 ,作为 一 种 无 监督 学 习 的 非 线性 特征 提取 方法 ， 
行 支票 处 理 或 邮政 编码 识别 时 ， 极 其 微小 的 错误 将 会 导致 巨 。 其 输出 与 输入 具有 相同 的 维度 ， 隐 藏 层 则 被 用 来 进行 原始 数 
大 的 损失 。 因 此 ， 手 写 数字 识别 最 重要 的 任务 是 提高 识别 准 。 据 的 特征 表示 或 编码 [1]。 因 其 无 监督 特征 提取 方法 的 特点 ， 
确 率 。 尼 昌 可 快速 提取 特征 ， 但 特征 提取 准确 性 与 还 原 性 却 无 法 保 
深度 卷 积 神经 网 络 在 手写 数字 识别 中 应 用 极为 广泛 ， 且 证。 
性 能 也 较为 优良 。 但 神经 网 络 取决 于 训练 数据 集 ， 当 训练 本 文 将 卷 积 神经 网 络 与 自动 编码 器 结合 ， 形 成 深度 卷 各 
样本 特征 覆盖 范围 较 大 时 ,所 训练 网 络 的 准确 性 将 相对 较 高 。 ” 自 编码 神经 网 络 ,根据 手写 数字 图 像 特点 ,设置 卷 积 核 参数 ， 
但 在 神经 网 络 模型 建立 中 ， 若 采用 特征 覆盖 性 较 小 的 数据 集 ”以 此 进行 特征 提取 。 所 提取 特征 不 光 具 有 自动 编码 器 输出 特 
进行 训练 测试 ， 所 训练 的 神经 网 络 模型 将 会 过 度 拟 合 此 数据 “， 征 与 输入 相同 、 无 监督 快速 提取 的 优点 ， 还 拥有 卷 积 神经 网 
集 ， 当 使 用 此 神经 网 络 识别 新 的 手写 数字 图 片 时 ， 易 出 现 识 。 络 权 值 共享 的 优点 。 较 大 程度 解决 了 卷 积 神经 网 络 池 化 层 丢 
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失信 息 与 自动 编码 器 特征 提取 准确 率 低 的 缺点 。 网 络 ， 故 其 思想 来 源 于 人 脑 对 外 界 认 知 的 处 理 过 程 ， 模 拟人 
采用 MNIST 数据 集 作为 训练 与 测试 集 MNIST 是 目前 ”视觉 系统 对 外 界 事物 的 处 理 ， 在 处 理 时 ， 信 号 从 一 个 神经 元 


传递 到 下 一 个 神经 元 ， 不 同 神经 元 的 特征 不 断 被 抽象 ， 相 同 


手写 阿拉 伯 数 字 的 最 大 数据 集 ， 特 征 履 盖 范 围 广 ， 可 在 同 
个 数据 集 上 最 大 限度 的 解决 卷 积 神经 网 络 识 别 范 围 较 窗 的 问 
题 。 同 时 ， 将 10000 幅 自 制 中 国 大 学 生 手 写 数字 数据 集 分 为 
各 5000 幅 , 选 出 5000 幅 与 MNIST 中 训练 集 再 次 训练 网 络 ， 
用 另外 5000 幅 测 试 该 网 络 , 以 佐证 模型 实用 性 能 。 经 实验 验 
证 , MNIST 数据 集 上 的 识别 准确 率 相 对 于 前 人 方法 有 一 定 提 
升 。 此 外 ， 为 改善 像素 特征 并 扩大 数据 集中 不 同 图 像 数 字 特 
征 的 差别 ， 故 在 图 像 预 处 理 阶 段 使 用 了 插值 图 像 增强 算法 ， 
将 图 像 重 新 调整 ， 使 特征 提取 更 为 精准 。 


1 ”已 有 研究 及 本 文 相关 算法 


1.1 已 有 研究 

前 人 已 有 多 种 方法 实现 手写 数字 识别 ， 主 要 包括 机 器 学 
习 、 深 度 学 习 、 模 糊 控 制 等 领域 。 结 果 表 明 ， 深 度 学 习 领 域 
算法 已 超越 大 多 数 用 于 分 类 的 算法 ,文献 [2] 提 出 的 使 用 卷 积 
经 网 络 与 自动 编码 器 对 孟加拉 数字 数据 集 进行 识别 ， 其 ? 
确 率 到 达 98.55%; 文献 [3] 提 出 的 “融合 卷 积 神经 网 络 ” 将 
SN 模型 与 B-CNN 模型 融合 ， 在 MNIST 上 测试 正确 率 达 到 
99.10%; 文献 [4 提出 的 基于 雅克 比 稀疏 自动 编码 机 的 模型 ， 
在 MNIST 上 测试 正确 率 达 到 了 94.8%; 文献 [5] 使 用 
“Dropconnect” 方 法 实现 了 MNIST 测试 正确 率 99.79%， 这 


a 


是 目前 此 数据 集 上 的 最 高 正确 率 ; 文献 [6] 使 用 了 局 部 二 进 制 
特征 提取 方法 与 K- 近 邻 分 类 算法 ,达到 了 89.81% 的 正确 率 ，; 
文献 [7] 提 出 的 无 监督 学 习 应 用 对 象 特征 层次 结构 是 一 种 无 
监督 方式 MNIST 测试 方法 ， 其 准确 率 达 到 了 98.32%; 文献 
[8] 建 立 的 深度 有 监督 学 习 网 络 ， 相 比 于 其 他 文献 所 提取 的 特 
征 ， 可 将 错误 降低 50%; 文献 [9] 将 隐 马 尔 可 夫 模 型 应 用 于 手 
写 数字 识别 ， 在 银行 票据 OCR 的 应 用 中 使 得 票据 拒 识别 率 
降低 了 3%; 文献 [10] 使 用 了 基于 轮廓 特征 的 HMM 手写 数字 
识别 ,达到 了 92.2% 的 正确 率 ; 文献 [11] 使 用 的 图 像 增强 方法 ， 
配合 卷 积 神经 网 络 ， 在 MNIST 数据 集 上 达到 99.56% 的 准确 
率 。 
1.2 所 用 基础 方法 
1.2.1 卷 积 神经 网 络 (CNN) 

卷 积 神经 网 络 是 一 种 特殊 的 可 训练 权重 和 偏 置 的 网 络 ， 
经 典 卷 积 神经 网 络 图 如 图 1 所 示 。 
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图 1 经 典 卷 积 神经 网 络 图 
Fig.1 Classic convolutional neural network diagram 

其 与 人 工 神 经 网 络 不 同 点 在 于 局 部 感受 域 与 权 值 共享 。 
但 当 普通 深度 卷 积 神经 网 络 层级 加 深 ， 目 标 函 数 优化 则 将 变 
为 非 凸 优化 问题 ， 模 型 识别 准确 率 将 极度 依赖 初 值 的 选择 ， 
若 初 值 选 择 恰当 , 可 使 优化 函数 稳定 收敛 ; 若 初 值 选 择 不 当 ， 
模型 将 会 出 现 欠 拟 合 情 况 ， 在 可 行 域 上 出 现 大 量 极 值 点 。 
1.2.2 自动 编码 器 (autoencoder) 
自动 编码 器 是 深度 学 习 中 的 一 个 基础 概念 。 可 以 使 用 自 
身 的 高 阶 特征 进行 自我 编码 。 自 动 编码 器 其 实 也 是 一 种 神经 


卷 积 层 
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神经 元 的 特征 被 强化 。 其 最 终 将 使 用 高 阶 特征 重 构 自 己 ， 征 
非 复制 像素 点 。 
动 编码 器 是 指 保持 输入 与 输出 尽 可 能 一 臻 《通过 信 

损失 来 判定 ) 的 情形 下 ， 实 现 无 监督 方式 下 的 隐 层 特征 提 

与 参数 学 习 [12]。 目 标 是 让 神经 网 络 的 输出 能 和 原始 输入 一 
致 ， 相 当 于 在 特征 空间 上 学 习 一 个 恒等式 Y=*。 将 原始 图 

作为 输入 ， 对 图 像 进 行 编 解码 ， 使 提取 到 的 特征 保持 输入 与 
输出 接近 一 致 。 自 动 编码 器 结构 图 如 图 2 所 示 。 


图 2 自动 编码 器 结构 图 
Fig.2 Automatic encoder Structure 
1.2.3 图 像 增强 技术 
在 利用 深度 学 习 进 行 图 像 识 别 时 ， 由 于 需要 进行 高 度 抽 
象 的 特征 提取 ， 这 就 需要 图 像 特 征 高 度 有 效 ， 而 训练 集 图 像 
不 一 ,缺乏 泛 化 性 与 特征 有 效 性 。 因 此 在 进行 模型 训练 之 前 ， 
图 像 采取 一 系列 的 预 处 理 ， 图 像 增强 技术 是 预 处 理 
阶段 的 重要 过 程 ， 可 以 提高 特征 有 效 性 ， 加 强 模型 泛 化 能 力 
(防止 过 拟 合 )。 
本 文采 取 的 图 像 增强 技术 是 双 线 性 插值 增强 ， 分 别 对 图 
片 x 与 y 两 个 方向 上 的 像素 做 插值 ， 使 图 像 进行 像素 尺寸 缩 
放 。 达 到 图 像 增强 效果 。 


2 ”核心 算法 建立 


本 文 模型 建立 流程 包括 图 像 预 处 理 方法 ， 卷 积 自动 编码 
器 模型 建立 特征 提取 方法 ， 人 工 神经 网 络 模型 建立 进行 训练 
与 预测 方法 。 本 文 手写 数字 识别 方法 流程 如 图 3 所 示 。 


转化 后 图 像 
灰 度 转 化 与 图 像 增强 


卷 积 自 编码 神经 网 络 
训练 与 测试 


测试 模型 与 交叉 检验 


寻 3 手写 数字 识别 方法 流程 
Fig.3 Flow chart of handwritten digit recognition method 


2.1 图 像 预 处 理 
图 像 预 处 理 阶段 分 两 步 进行 ， 第 1 阶段 对 MNIST 数据 
集 28*28 像素 图 像 进 行 灰 度 处 理 ， 将 其 转换 为 灰 度 图 像 ， 然 
后 对 灰 度 图 像 进行 二 值 化 处 理 ， 去 除 噪 声 ; 第 2 阶段 进行 图 
像 增强 ， 采 用 双 线 性 插值 增强 方法 对 图 像 进行 像素 缩放 ， 达 
到 图 像 增 强 目 的 。 

2.1.1 灰 度 转换 
本 文 所 使 用 的 MNIST 数据 集 与 10000 幅 自 制 数 据 集 图 
像 像素 均 为 28*28 的 黑白 图 像 。 首 先 将 其 转换 为 灰 度 图 像 ， 
这 里 用 到 Python 中 的 numpy 库 convert 函数 进行 灰 度 转换 。 
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其 中 : fF(%y) 表示 最 终 插值 结果 ， 即 目标 图 像 第 Cy 个 像素 
点 的 像素 值 。 

根据 此 像素 插值 计算 方式 ， 采 用 MATLAB 对 此 算法 进 
行 编程 实现 ， 对 MNIST 数据 集中 某 一 张 图 片 数字 “5” 进 行 
缩放 ， 先 缩小 到 25*25 像素 尺寸 ， 随 后 再 增 大 到 28*28 像素 
尺寸 ,实现 图 像 增强 ,图 像 增强 后 的 图 片 及 增强 前 后 对 比 图 ， 


转换 为 灰 度 图 像 后 对 图 像 进行 二 值 化 处 理 ， 本 文 灰 度 图 


如 图 4 所 示 。 


像 转换 为 二 值 化 图 像 阔 值 0 计算 公式 如 下 : 

0 (1) 
中 : Rs 表示 像素 行 数 ，Cs 表示 像素 列 数 ，hi 表示 像素 亮 
度 值 。 根 据 此 阔 值 转换 为 二 进 制 图 像 方法 为 


起 1,if h>0 
”|0,ifh,<0 GO) 


并 


对 于 本 文 使 用 的 MNIST 与 自制 数据 集 ，Rs=Cs=28 。 
2.1.2 图 像 增强 
本 文 预 处 理 阶 段 图 像 增强 目的 是 为 实现 图 像 尺寸 缩放 进 
而 加 强 图 像 边缘 特征 。 设 原 图 像 大 小 为 m*n， 缩 放 后 的 大 小 
为 a*b。 则 两 幅 图 像 的 边 长 比 为 m/a 与 nb， 在 图 像 缩放 的 大 
多 数 情 况 下 ， 边 长 比 不 为 整数 ， 故 存储 时 选用 浮 点 型 。 则 
标 图 像 的 第 (x, y) 个 像素 点 (第 x 行 第 y 列 ) 可 通过 边 长 比 对 
应 至 原 图 像 ， 则 对 应 坐标 为 (x*m/a, y*n/6D)， 则 根据 边 长 比 的 
取 值 ,此 值 也 为 非 整 型 , 而 非 整 型 的 坐标 无 法 在 图 像 上 表达 。 
采取 双 线 性 插值 方法 进行 像素 转换 ， 可 有 效 避 免 坐标 是 
浮 点 数据 的 问题 。 若 所 求 得 原 图 像 的 对 应 坐标 为 (xsmy/a， 
ys#n/b)， 则 双 线 性 插值 算法 首先 寻找 离 其 最 近 且 紧邻 的 4 珑 
形 像素 点 ， 计 算 此 像素 点 与 周围 4 像素 点 的 双 线性 插值 。 根 
据 插值 意义 ， 在 离散 点 疡 处 给 定 被 逼近 函数 foo) 的 值 KpiD， 
则 逼近 函数 yp 六 满足 : 
max|f (pi)-y(p;)EO (3) 
执行 插值 操作 后 ， 可 使 逼近 误差 接近 0。 即 目标 图 像 像 
素 点 与 原始 像素 点 逼近 误差 接近 0。 减 少 图 像 增强 过 程 中 的 
图 像 失 真 。 
己 知 目标 图 像 上 的 第 (x， 芒 个 像素 点 P(x,y)， 则 设 其 在 原 


PP 


2 


(b) 增 强 后 


(co) 增强 前 后 对 比 
图 4 ” 双 线 性 插值 增强 效果 对 比 


Fig.4 Comparison of double interpolation enhancement 


2.2 卷 积 自 编码 神经 网 络 


卷 积 神经 网 络 卷 积 层 用 来 提取 图 像 特 征 ， 采 用 卷 积 计算 
的 方式 ， 对 像素 与 卷 积 核 参 数 进行 卷 积 运 算 。 训 练 过 程 中 ， 
此 层 的 卷 积 核 会 进行 训练 修正 ， 以 此 降低 损失 。 卷 积 计算 公 
式 如 下 所 示 : 


conv(m,n)=(P®O)(m,n)= 
2 eb) men -bh) (8) 


其 中 : @ 表示 卷 积 运算 ， 此 公式 表示 了 卷 积 核 Q 在 输入 图 像 
上 在 平面 空间 滑动 ， 计 算 元 素 乘法 求 和 产生 输出 ， 得 到 一 个 


过 | 


图 像 上 的 4 个 矩形 相 邻 像素 点 ,分 别 为 Pi = (xl y1)、P12 = (xl， 
y2), P21= (x2, yD 以 及 P2 = (x2,y2)， 则 在 增强 过 程 中 首先 在 
x 方向 进行 插值 ， 计 算 公 式 如 下 : 


bX 
y(Q) CO— 
和 2 一 天 


11 


nf (Bi) where @ =Coy) (4) 


XxX 一 思 


yO) ~ 
其 中 : f(B) 表示 在 原 医 遇 | 浊 i 行 第 7 列 位 置 的 像素 值 ， 
y(Q) 表示 在 (x,») 线 上 的 x 方向 插值 得 到 的 像素 值 ， 其 为 插 
值 过 程 中 过 渡 值 。 
在 ?方向 上 插值 为 


F(R)w 2 


I /Bs) where O, = (ey) (5) 


Oe -2 (9J) (6) 


其 中 : F(R) 表示 在 ee 即 在 目标 图 像 上 的 

像素 表达 式 。 
将 x 方向 与 方向 插值 综合 ， 得 到 双 线 性 插值 结果 : 

(一 52 二 中 

(2 ym 


Fy) 


卷 积 特征 图 [131。 
在 经 过 每 个 卷 积 层 后 ， 还 会 经 过 一 池 化 层 ( 降 采样 层 )， 
每 次 将 原 图 像 卷 积 后 ， 都 通过 一 个 下 采样 的 过 程 ， 来 减 小 图 
象 的 规模 ， 降 低 卷 积 后 的 过 拟 合 。 
卷 积 神经 网 络 最 大 的 优点 在 于 局 部 感受 域 与 权 值 共 享 。 
部 感受 域 通过 卷 积 操作 ， 把 全 连接 变 成 局 部 连接 ， 因 为 多 
网 络 能 够 抽取 高 阶 统计 特性 ， 即 使 网 络 为 局 部 连接 ， 由 于 
外 的 突 触 连接 和 额外 的 神经 交互 作用 ， 也 可 以 使 网 络 获得 
局 关系 。 卷 积 核 通过 原 图 像 ， 然 后 卷 积 核对 原 图 像 上 符合 
积 核 大 小 的 像素 进行 加 权 求 和 ， 每 一 次 只 是 对 符合 卷 积 核 
图 像 像 素 做 卷 积 , ， 使 全 连接 变 成 局 部 连接 。 
权 值 共享 在 不 同 的 图 像 或 者 同一 张 图 像 共用 一 个 卷 积 核 ， 
减少 重复 的 卷 积 核 。 同 一 张 图 像 当 中 可 能 会 出 现 相 同 的 特征 
共享 卷 积 核能 够 进一步 减少 权 值 参数 .如 果 使 用 了 权 值 共享 ， 
即 共 用 同一 个 卷 积 核 ， 那 么 将 可 以 大 大 减少 卷 积 核 的 数量 ， 
加 快运 算 速 度 。 
结合 卷 积 和 


器 的 不 同 神经 


可 


沂 


mm 
dT 


动 编码 
征 被 强 


经 网 络 与 自动 编码 器 的 优点 ， 利 用 自 
元 的 特征 不 断 被 抽象 ， 相 同 神经 元 的 特 


201901.00153v1 


chinaXiv 


录用 定稿 


化 优点 ， 


形成 了 卷 积 自动 编码 器 。 
反 卷 积 解码 器 解码 操作 。 为 实现 特 生 


工 音 作 ， 


实现 相应 特征 提取 功能 。 


曾 文献 ， 


克服 卷 积 神经 网 络 特征 提取 易 出 现 欠 拟 合 的 问题 ， 
首先 进行 卷 积 编码 操作 ， 然 后 进行 
F 全 面 有 效 提 取 与 各 层 分 
适当 改变 编 解码 器 中 卷 积 核 的 大 小 与 卷 积 层 个 数 ， 
体 参数 分 别 为 : 


a) 卷 积 编码 器 层 包 含 两 个 卷 积 层 和 两 个 池 化 层 。 

第 1 层 卷 积 核 (conv1) 参 数 为 5*5*32, ， 采 用 全 0 填充 。 
设置 此 层 的 目的 是 为 提取 图 像 的 边缘 范围 特征 ， 确 定 图 片 整 
体形 状 与 图 像 位 置 。 

第 1 层 下 采样 层 (Pool1) 参 数 为 2*2， 步 长 为 2, 使 用 全 0 
填充 ， 采 用 平均 池 化 方式 。 设 置 此 层 的 目的 是 对 边缘 范围 特 


第 


征 进行 压缩 ， 并 采取 平均 池 化 保留 背景 。 
2 层 卷 积 核 (conv2) 参 数 为 S*$*64， 使 


用 全 0 填充 。 设 


置 此 层 


数字 “1 


的 
别 图 像 手 写 数字 中 的 边 角 与 矩形 


的 是 为 提取 图 


像 的 角 特 征 与 将 特征 ， 以 便 更 好 识 
立 置 ， 如 数字 “7% “5” 与 
隐 边 角 特 征 部 分 与 月 特征 


”“9” 中 等 ，MNIST 中 图 


部 分 如 


名 


5 所 示 : 


b) 卷 积 解码 器 层 。 卷 积 解码 器 层 采 


7 7 


(a) 角 特 征 部 分 图 像 


中 加 图 


人 b) 青 特 征 部 分 图 像 
图 5 角 特 征 与 伏特 征 展示 
Fig.5 Angular feature and ridge feature display 


j 反 卷 积 操作 ， 对 


Convoluting Coding 


党: 基于 深度 卷 积 自 编码 神经 


特征 进行 放大 。 将 卷 积 中 编码 器 层 的 结果 逐 层 进行 反 卷 积 操 
作 ， 最 终 使 输出 ; 
取 。 卷 积 解码 器 层 包 括 2 个 反 卷 积 层 ，2 个 上 采样 层 ， 输 出 


为 28*28 尺 


网 络 的 手写 数字 识别 研 


ChinaXiv 合 作 期 刊 


第 37 卷 第 4 期 


ES 


究 


< 


寸 特征 。 


区 


像 大 小 ， 实 现 尺 寸 无 损 的 特征 提 


第 1 层 反 卷 积 (Deconv1) 参 数 为 2*2*64， 步 长 为 2, 不 采 


14*14*64。 


第 1 层 上 采样 
层 全 0 填充 。 经 过 此 层 后 ， 图 像 大 小 变 为 14*14*32。 设 置 
Deconvl 与 Upsamplingl 的 目的 为 将 编码 器 


用 全 0 填充 。 卷 积 编码 器 


局 
2 


刁 输出 经 过 此 层 后 ， 大 小 变 为 


(Upsampling1 ) 参数 为 3*3*32, 采用 2 


层 提 取 到 的 边 角 


特征 与 将 


第 2 层 反 卷 积 


特征 进行 特征 映射 ， 恢 复 一 定 
层 (Deconv2) 参 数 为 2*2*32， 步 长 为 2， 


尺寸 特征 。 


习 


采用 全 0 填充 。 经 过 此 层 后 输出 变 为 28*28*32。 


第 2 


用 1 


Deconv2 


慨 池 化 


层 (Upsampling2) 参 数 为 3*3， 步 长 为 1， 采 
层 全 0 填充 ， 经 过 此 层 后 ， 输 出 结果 为 28*28*1 。 设 置 
和 Upsampling2 的 目的 为 将 卷 积 编码 器 中 保留 的 背 


景 映射 到 新 的 尺寸 中 ， 并 使 最 终 得 到 的 特征 图 与 原 图 尺寸 一 
致 。 
本 文 卷 积 自动 编码 器 模型 如 图 6 所 示 。 此 卷 积 自动 编码 
器 形成 的 卷 积 自 编码 神经 网 络 图 如 图 7 所 示 。 
Conv coding Deconv coding 
| 入 32 64 32 3 
) .29 be Ey 14.5 14- 28 本 28 
上 是 
Conv 1 Pool 1 onv 2 Pool 2 Deconv 1 Upsampling 1 Deconv 2 Upsampling 
5X5，S=1 2x2,5=2 5X5，S=1 2X 2,S=2 2x2，S=2 3x3,5=1 2X2.S=2 ”3X3.S=1 
图 6 所 设计 卷 积 自动 编码 器 


Fig.6 Convolution autoencoder model designed 
FC-NN 


Deconv Coding 
人 


r 人 "Ir 1 
ED 


Inpuf Map 


28x28 


卷 积 编码 层 通过 卷 积 运算 对 


Outpuf Map 


28x28 14x14 7x7 14x14 14x14 28 x28 


(total 32) (total 32) (total 64) (total 64) (total 64) 
1 


{total 32) 


(total 32) 


Conv1 Conv2 pool2 Deconv1 ”Upsampling1 Deconv2 
5x5x325=1 2x2x32S=2 5x5x64S=2 2x2x64S=-2 2x2x64S=2 3x3x6b4S=1 3x3x325=2 
图 7 卷 积 自 编码 神经 网 络 结构 图 


(total 1) 
Upsampling 2 
3x3x15=] 


Fig.7 Convolutional self-encoding neural network structure 


图 像 进行 编码 ， 利 用 卷 积 核 


加 快 提取 速度 ， 且 局 部 感受 域 可 高 度 有 效 


k 享 机 制 对 


的 参数 


取 区 


像 特征 


my 


全 连接 让 
层 为 500 个 和 


经 网 络 (FC-NN) 输入 层 为 784 个 六 
经 元 ， 输 出 层 为 10 个 神经 元 。 


经 元 ， 隐 


网 络 所 


softmax 


每 一 层 之 间 的 连接 采用 
值 采取 截断 的 正 态 分 帮 


的 激活 函数 为 ReLU 函数 ， 代 价 函 数 采取 
结合 。 首先 构建 神经 元 神经 网 络 模型 , 其 中 

可 训练 权重 进行 连接 。 权 重 和 矩阵 。 初 
获取 。 且 将 中 加 入 性 正则 化 ， 限 制 权 


/和 


与 交 义 炉 


重大 小 ， 使 模型 不 能 随意 拟 合 训练 数据 随机 噪声 ， 即 有 效 
防止 训练 模型 过 拟 合 。 
也 正则 化 公式 如 下 : 


R(@) 二 wo 有 = > (9) 


= 网 | 


时 9 


R(o) 的 结果 即 为 加 入 ZL2 正则 化 


后 的 权重 限制 。 


当 输入 特征 经 过 第 1 
元 特征 通过 激活 函数 将 特征 保留 并 映射 出 去 ， 解 决 实现 非 线 
性 与 线性 的 转换 。 这 里 本 文选 


刁 隐 和 含 


层 加 权 后 ， 需 将 加 权 的 神经 


的 激活 函数 为 ReLU 函数 ， 


函数 公式 如 下 : 
ReLU(x;)=max(0,x;) (10) 
由 此 函数 的 特点 可 知 ， 当 xi 逐渐 变 大 ， 即 随 着 训练 次 数 
不 断 增 加 ， 函 数 的 变化 率 不 变 ， 故 训练 时 ， 执 行 梯度 下 降 算 
法 ,会 较 好 的 进行 下 去 , 且 函 数 变 化 率 也 处 在 较 好 的 范围 内 。 
本 文 应 用 的 全 连接 神经 网 络 经 过 最 后 一 层 隐 含 层 输出 后 ， 
会 经 历 一 个 原始 输出 层 ， 随 后 经 历 softmax 层 ，softmax 表达 


式 如 下 : 


softmax(y); = y» =e” > ey 
且 


4D 


I 


本 


得 到 概率 分 布 参数 


率 距离 。 训 练 数据 
确 类 别 的 概率 为 1， 
播 第 一 次 预计 
失 函 数 ， 对 权 值 wj 


品 


曾 文献 ， 等 : 基于 深度 卷 积 自 编码 神经 网 络 的 手写 数字 识别 研究 


a) MNIST 训练 集 。 图 片 原始 像素 为 28*28， 首 先 洲 


: yi 表示 神经 网 络 的 原始 输出 经 过 softmax 


经 网 络 输 


Hlm,n) 表 示 m 与 n 之 间 的 概率 分 布 虽 
比 参数 与 训练 标签 值 进 
算 ， 运 算 后 的 结果 即 得 到 前 向 传播 输出 与 概率 分 布 之 间 自 
就 符合 一 个 概率 分 布 ， 


后 ， 将 


的 标签 人 


dl > 


变 成 了 一 个 符合 概率 分 布 的 参数 。 
交叉 炳 表示 式 如 下 : 


H(m,n))— Dm(x) logn(x) 


E 离 。 由 softmax 层 


IT 


属于 不 正确 类 别 的 概率 为 0， 


进行 训练 ， 即 反 向 传播 ， 通 


应 权 值 与 1 


3 


9 


3.1 


MNIST 数 # 


Ar 


行 微分 运算 ， 找 到 最 小 化 损失 函数 的 本 
EE， 卷 积 自 编码 神经 网 络 训练 完毕 。 
数据 集 与 实验 结果 
本 部 分 首先 介绍 使 用 的 数据 集 ， 介 绍 所 使 用 程序 运行 工 
对 实验 结果 与 交叉 检验 结果 进行 展示 分 析 
数据 集 


ET 
[zl 


MNIST 是 美国 


集 


共 


来 。 共 
张 为 测试 数 # 


制作 的 阿拉 伯 和 手写 数字 数据 集 ， 


包含 70000 


居 集 。MNIST 数据 集 部 分 图 片 如 图 


自制 数据 集 : 除 MNIST 数 提 


幅 


制 手写 
中 国 本 科 4 


之 数据 和 


家 技术 与 标准 丰 
250 个 不 同 的 人 手写 而 
图 片 ， 其 中 60000 张 为 训练 数据 集 ，10000 


图 片 
MNIST data set part of the picture 


8 所 示 。 


28*28 像素 ，, 


居 集 外 ， 本文 还 用 
着 。 其 中 数字 0-9 各 1000 张 ， 
究 生 手写 而 成 。 制作 数据 集 ， 将 


实验 9 


于 像 预 处 理 , 自制 数据 集 图 片 如 展 


Cieclelelt 


9lclqlala 
多 片 


习 9 自制 数据 集 部 分 


Fig.9 Homemade dataset part of the picture 


h， 将 MNIST 训练 集 与 自制 数据 集 医 


的 预 处 理 操作 ， 灰 度 转换 并 进行 图 像 增强 ， 图 像 增 3 


中 存在 


像素 缩放 ， 


体 为 : 


[ul 


实验 环 


压缩 至 25*25 像素 ， 再 放大 至 28*28 像素 。 
b) 自制 数据 集 
至 25*25， 再 放大 至 28*28 像素 将 处 理 
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。 图 片 原始 像素 为 28*28， 首 先 将 其 压 络 


3.2 实验 结果 与 对 比分 析 
误 为 Windows7 系统 ， 采 


后 的 图 片 保 存 。 


用 编程 语言 为 Python， 


行 特 和 


神经 网 络 学 习 框 架 采 
LI 
Ll 


的 深度 卷 积 自 编码 神经 网 络 对 MNIST 预 处 理 后 的 图 
E 提 取 与 训练 。 经 过 40000 步 训练 后 ,损失 趋 近 于 稳定 。 


行 测试 ， 测 试 准确 


] TensorFlow 框架 。 实 验 中 ,将 上 文 提 


accuracy = 0.9919 
accuracy = 0.99256 
accuracy = 0.9927 
accuracy = 0.9928 
accuracy = 0.9920 
accuracy = 0.99297 
accuracy = 0.9930 
accuracy = 0.9937 


将 训练 好 的 模型 对 MNIST 训练 集 ; 

99.37%。 如 图 10 所 示 。 
After 32001 training step(s),test 
After 33001 training step(s),test 
After 34001 training step(s),test 
After 35001 training step(s), test 
After 36001 training step(s),test 
After 37001 training step(s),test 
After 38001 training step(s),test 
After 39001 training step(s),test 
Process finished with exit code 0 

图 10 MNIST 训练 模型 测试 结果 


将 预 处 理 后 的 一 万 由 
面 图 像 , 选 其 中 5000 幅 与 MNIST 训 
训练 集 ， 再 次 训练 神经 网 络 ， 经 过 40000 步 训练 。 将 训练 好 
佐证 模型 实用 性 , 测试 


S000 


Fig. 10 MNIST training model test results 


看 中 国 大 学 


手写 数字 图 片 分 为 各 


的 模型 对 另外 5000 幅 图 像 进行 测试 ， 
准确 率 为 99.33%。 如 图 11 所 示 。 


可 视 化 后 ， 得 到 损失 率 变 化 


After 31001 training step(s),test 
After 32001 training step(s),test 
After 33001 training step(s),test 
After 34001 training step(s),test 
After 35001 training step(s),test 
After 36001 training step(s),test 
After 37001 training step(s),test 
After 38001 training step(s),test 
After 39001 training step(s),test 


Process finished with exit code 0 


accuracy = 0.9913 
accuracy = 0.9925 
accuracy = 0.99268 
accuracy = 0.99287 
accuracy = 0.9927 
accuracy = 0.99281 
accuracy = 0.99293 
accuracy = 0.9931 
accuracy = 0.9933 


图 11 自制 数据 集训 练 模 型 测试 结果 


Fig. 11 Self-made data set training model test results 


在 MNIST 上 的 模型 训练 过 程 损 失 率 变化 在 Tensorboard 


， 
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图 12 MNIST 上 训练 损失 率 变 化 


线 ， 如 图 12 所 示 。 
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Fig. 12 Change in training loss rate on MNIST 
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在 自制 数据 集 上 的 损失 率 变化 曲线 ， 如 图 13 所 示 。 


My 由 ukwwewbjaadn AN 人 


到 13 自制 数据 集 上 训练 损失 率 变化 


Fig. 13 Changes in training loss rate on the homemade data set 


练 集 一 起 组 成 新 的 


近 稳 定 ， 模 型 稳定 有 效 。 


曾 文献 ， 等 : 基于 深 


损失 率 变化 曲线 ， 模 型 在 训练 30000 步 后 ， 


已 基本 接 


卷 积 自 动 编码 器 与 神经 网 络 结合 方法 与 其 他 方法 对 比如 
表 1 所 示 。 
表 1 算法 MNIST 测试 准确 率 对 比 
Table 1 Comparison of algorithm MNIST test accuracy 
分 类 算法 准确 率 
K- 近 邻 89.81% 
基于 轮廓 的 HMM 92.20% 
B-CNN 99.10% 
卷 积 自 编码 神经 网 络 99.37% 
4 ”结束 语 
本 文 介绍 了 一 种 手写 数字 的 识别 方法 ， 首 先 使 用 双 线 性 
动 编 码 器 与 人 工 神 


插值 对 图 像 进 行 预 处 理 ， 然 后 利用 卷 积 
经 网 络 ， 在 MNIST 数据 集训 练 并 测试 ，MNIST 数据 集 识别 
正确 率 达 到 99.37%。 使 用 部 分 自制 数据 集 与 MNIST 混合 再 
次 训 
别 了 


高 准确 率 ， 为 解决 手写 数字 识 


| 练 模型 ， 此 模型 对 剩余 自制 数据 集 进 行 测试 ， 测 试 集 识 


E 确 率 达 到 99.33%。 模 型 稳定 ， 识 别 高 效 准确 。 
文中 并 出 的 办 法 虽 坟 法 到 衣 信 在 MNIST 数据 条 上 上 的 吕 
别 问 题 提供 了 不 错 的 思路 。 且 


该 方法 不 只 可 应 用 在 手写 数字 识别 领域， 还 可 应 用 在 手写 汉 
字 识 别 与 人 脸 识别 领域 ， 下 一 步 将 考虑 在 此 方向 进行 实验 控 
究 
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